查看原文
其他

手把手教你生信分析平台搭建

MG 宏基因组 2022-03-29

宏基因组按:此系列教程为基因学苑的王通老师原创发布。非常适合刚接受生信,又有服务器管理需求的小伙伴做为入门材料,一共20篇文章,内容涉及服务器选购、Linux系统安装、用户管理、软件安装、软件兼容环境、Galaxy/Rstudio服务器配置等多方面。助你快速入行,轻松成为兼职服务器管理员的技术达人。

本文为宏基因组对本系列教程的导读和介绍,方便大家收藏和查阅自己需求的内容。文中蓝字均为链接可阅读详细教程。

作者序:很多读者想学习生物信息分析,而生物信息分析是一项实践性很强的工作,因此我们推出《生物信息分析平台搭建》系列,手把手教你搭建属于自己的生物信息分析系统,为了便于练习,我们将在虚拟机中进行练习,当熟练之后,在逐步上手实体机或云服务器。

01. VirutalBox安装

VirtualBox是目前免费虚拟机中最好用的软件,兼容性好、稳定、定期更新。是生信入门、无服务器还要数据分析的朋友居家必备软件。点击标题蓝字阅读原文,查立阅此软件下载、安装的详细图文教程。

02. 安装Linux系统

在VirtualBox软件中,在Ubuntu为例,从加载系统光盘镜像,到完成安装进入图形桌面,13步带你进入真正的Linux世界。

03. 系统设置

主要内容包括重置root帐号密码(先拿下管理员权限)、网络设置、系统设置、锁屏时间、语言选择、系统与软件更新等常用操作。

04. 共享文件夹

系统配置好,如何访问电脑里的文件,开始学习使用和分析数据,设置共享目录难住了很多人,这里有详细的图文教程。

05. 个性化设置

Terminal下调试命令和代码,文本编辑神器Vim的安装和配置不可少;加速软件下载,修改软件源为国内镜像;配置环境变量、命令缩写等才是有B格的攻城狮。

06. 系统配置

主要内容配置远程登陆openssh、java、python和Perl模块、R语言、常用生信软件等。可命令行,也可图形界面。

07. bioconda

bioconda来源于conda,conda是一个软件模块管理工具,也是一个可执行命令,其核心功能是包管理与环境管理,可以用来管理Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN等语言的模块。在python中使用比较多,有点类似于pip工具。有了它让你轻松解决各软件依赖不同版本包的问题。

08. 利用Synaptic安装生物软件

Ubuntu里也有图形界面、鼠标点选的软件安装方式,不喜欢敲代码的朋友不要错过(反正我是不用)。

09. Aspera

随着测序数据的大量产出,数据传输成为行业发展瓶颈。不过“车到山前必有路”,Asprea是一种高效的数据传输解决方案,可以快速在网络间传输数据,速度超属你的想象(可能比较占用网络资源,我们单位用不了)。

10. Rstudio-server

Rstudio是我最喜欢使用开发环境,支持Shell、R、Markdown等多种语言。如果有服务器,安装Rstudio-server软件,大家一起用;本地只要能上网,就可以轻松用服务器工作了,非常方便。

11. 制作安装盘

如果不使用虚拟机,而是直接将Linux安装到实体机上,就需要一个启动盘,优盘是最方便的,不过目前流行的方式是下载系统的ISO文件,然后制作U盘启动。这里我们利用UltralISO这款工具制作,制作Ubuntu启动盘,同理,windows系统,CentOS系统都是同样的步奏。

12. 添加磁盘

当存储用满之后,需要添加新的磁盘,这里我们利用虚拟机演示如何添加一块磁盘,实体机中类似的操作。新添加一块磁盘之后,并不能马上使用,还需要分区与格式化为固定文件系统才能使用。

13. 安装GNOME桌面

服务器牌默认是不安装桌面的,需要手动安装。如果不喜欢Ubuntu 17.10之前的Unity桌面,其实可以自己安装新的桌面。比如GNOME桌面,KDE桌面等,如果后面比较熟悉命令行了,其实不需要桌面环境也行,这样可以节约计算资源。

14. 用户管理

服务器与普通PC一个最大的特点就是,PC是个人电脑,而服务器对外服务,因此,服务器支持多账户多任务。也就是同一时间可以多个账户同时登陆,同时使用系统。这就需要严格的用户管理机制。

主要内容有添加用户、创建组、修改密码,修改组信息,设置工作目录、锁定和删除账号。

15. RAID

经常有人问我自己的个人电脑是否能用来分析,有些配置已经很高,内存可以达到16G。其实服务器并不是一个配置更好的个人电脑,它与普通电脑之间有很多差别,其中最大的一点不同我想应该是服务器使用RAID。

16. CentOS

如果不喜欢Ubuntu,也可以选择使用CentOS,这是目前比较流行的另一个Linux版本。当然不差钱的企业可以选择更优秀的Reahat或者SUSE Linux等,喜欢折腾的还可以选择Linux mint发行版,或者国产比较优秀的Deepin Linux。其实,争论哪个版本更优秀没有意义,别纠结,你的技能好坏与使用哪个版本关系不大,通常来说CentOS更适合服务器使用,作为个人电脑来使用,还是Ubuntu更好些。

17. 服务器配置

熟悉完虚拟机配置服务器之后,就可以尝试上手搭建实体服务器了,如果要选购服务器,应该考虑哪些因素呢?如果不差钱,那就好办了,直接选最贵的就好了。在预算有限的条件下。CPU,内存,硬盘如何取舍,达到最佳性能,是否需要购买UPS,显卡是否有必要?这些问题,我们一文解决这些疑问。

18. 如何选购服务器

确定好服务器配置之后,还有很多事情需要选择,包括购买哪种类型的服务器,自己DIY,塔式服务器,机架式服务器,计算集群还是云服务器等,那么众多的选择中哪款才是适合自己的呢,这里我们一一道来。

19. 安装Galaxy

如果不喜欢命令行,可以提供一个图形化的数据分析界面,Galaxy就是这样一个生物信息分析的图形化框架,可以进行个性化设置,安装到服务器端对外提供服务。

20. 常见问题

本文主要内容包括上面教程中有人会因为各种原因,出现非预期的问题,这里统一答疑。如virtual安装失败、共享不成功、桌面无法安装、缺少依赖失败、命令不存在以及常见解决思路。

手把手教你生物信息分析平台搭建系列专栏到这里就全部结束了,可能一次很难照着文章完成所有的操作,这很正常,需要多操作几次。由于每个人的情况都不同,可能会出现各种各样的问题,不过不要害怕,每解决一个问题,技能就提升一步。


欢迎关注王通老师公众号

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存